Dữ liệu là gì? Các công bố khoa học về Dữ liệu

Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hìn...

Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hình ảnh, âm thanh, video hoặc bất kỳ định dạng nào khác. Dữ liệu được sử dụng để phân tích, xử lý, lưu trữ, truyền tải hay sử dụng cho mục đích nghiên cứu, quản lý và ra quyết định.
Dữ liệu là một tập hợp các thông tin và thông số có thể thu thập được từ nhiều nguồn khác nhau. Nó có thể tồn tại dưới nhiều dạng khác nhau như văn bản, số, hình ảnh, âm thanh, video, tệp tin hoặc cơ sở dữ liệu.

Dữ liệu có thể thu thập từ nhiều nguồn khác nhau như các cuộc khảo sát, thí nghiệm, hồ sơ bệnh án, truy vấn cơ sở dữ liệu, thiết bị cảm biến, mạng xã hội, trang web, v.v. Dữ liệu thu thập có thể là dữ liệu số (như số liệu thống kê, thông tin tài chính, dữ liệu khoa học) hoặc dữ liệu phi số (như văn bản, hình ảnh).

Dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực và hoạt động khác nhau. Chẳng hạn, trong lĩnh vực kinh doanh, dữ liệu được sử dụng để phân tích thị trường, dự đoán xu hướng, tối ưu hóa quy trình sản xuất và quản lý khách hàng. Trong lĩnh vực y tế, dữ liệu giúp theo dõi sức khỏe cá nhân, nghiên cứu bệnh lý và cải thiện chẩn đoán và điều trị.

Dữ liệu có thể được xử lý, phân tích, lưu trữ và truyền tải bằng cách sử dụng các phương pháp và công nghệ phổ biến như máy tính, cơ sở dữ liệu, các ngôn ngữ lập trình, học máy và trí tuệ nhân tạo. Công nghệ thông tin và khoa học dữ liệu đã phát triển nhanh chóng trong thời gian gần đây, mở ra nhiều cơ hội mới cho khai thác và sử dụng dữ liệu.
Dữ liệu có hai loại cơ bản là dữ liệu cấu trúc và dữ liệu phi cấu trúc.

Dữ liệu cấu trúc là dữ liệu có tổ chức rõ ràng và được tổ chức thành các bảng, hàng và cột. Dữ liệu cấu trúc thường được lưu trữ trong các cơ sở dữ liệu quan hệ và có thể truy vấn bằng ngôn ngữ truy vấn SQL. Ví dụ về dữ liệu cấu trúc bao gồm dữ liệu học sinh trong một trường học, dữ liệu bán hàng của một cửa hàng, hoặc dữ liệu tài chính của một công ty.

Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc định sẵn và không tổ chức theo mô hình bảng hay cột. Ví dụ về dữ liệu phi cấu trúc bao gồm văn bản, email, tệp tin đa phương tiện (hình ảnh, video, âm thanh), dữ liệu từ các mạng xã hội và các trang web. Dữ liệu phi cấu trúc thường phức tạp hơn và khó khai thác hơn dữ liệu cấu trúc. Để phân tích và sử dụng dữ liệu phi cấu trúc, thường cần sử dụng các công cụ và kỹ thuật xử lý dữ liệu phi cấu trúc như xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và học máy.

Dữ liệu cũng có đặc điểm về ý nghĩa (semantic) và chất lượng (quality). Ý nghĩa của dữ liệu liên quan đến sự hiểu biết và nghĩa vụ của dữ liệu, bao gồm cú pháp, ngữ nghĩa và tác động của dữ liệu lên ngữ cảnh sử dụng. Chất lượng của dữ liệu bao gồm độ chính xác, độ hoàn thiện, tính nhất quán, tính sẵn có và độ tin cậy của dữ liệu.

Dữ liệu cũng có thể được phân loại dựa trên quy mô, độ lớn và tính phân tán. Điều này liên quan đến cách dữ liệu được tổ chức và xử lý. Dữ liệu có thể được phân thành dữ liệu nhỏ (small data), dữ liệu lớn (big data), dữ liệu phân tán (distributed data), v.v.

Dữ liệu là yếu tố cơ bản để đưa ra quyết định thông minh và phát triển các ứng dụng học máy và trí tuệ nhân tạo. Quá trình thu thập, lưu trữ, quản lý và xử lý dữ liệu được gọi là quy trình dữ liệu (data pipeline).

Danh sách công bố khoa học về chủ đề "dữ liệu":

Trimmomatic: một công cụ cắt linh hoạt cho dữ liệu chuỗi Illumina Dịch bởi AI
Bioinformatics - Tập 30 Số 15 - Trang 2114-2120 - 2014
Tóm tắt

Động lực: Mặc dù đã có nhiều công cụ xử lý dữ liệu đọc từ giải trình tự thế hệ mới (NGS), chúng tôi vẫn không tìm thấy công cụ nào hoặc sự kết hợp của các công cụ đáp ứng yêu cầu của chúng tôi về tính linh hoạt, khả năng xử lý chính xác dữ liệu cặp đầu và hiệu suất cao. Chúng tôi đã phát triển Trimmomatic như một công cụ xử lý dữ liệu đầu vào linh hoạt và hiệu quả hơn, có khả năng xử lý chính xác dữ liệu cặp đầu.

Kết quả: Giá trị của việc xử lý dữ liệu đọc NGS đã được chứng minh cả trong các tác vụ dựa trên tham chiếu và không dựa trên tham chiếu. Trimmomatic cho thấy sản phẩm đầu ra ít nhất là ngang bằng, và trong nhiều trường hợp còn vượt trội hơn, so với các công cụ khác trong tất cả các kịch bản đã được kiểm nghiệm.

Tính khả dụng và triển khai: Trimmomatic được cấp phép theo GPL V3. Công cụ này có thể chạy trên nhiều nền tảng (cần Java 1.5+) và có sẵn tại http://www.usadellab.org/cms/index.php?page=trimmomatic

Liên hệ: [email protected]

Thông tin bổ sung: Dữ liệu bổ sung có sẵn trực tuyến tại Bioinformatics.

MEGA7: Phân Tích Di Truyền Phân Tử Phiên Bản 7.0 cho Dữ Liệu Lớn Hơn Dịch bởi AI
Molecular Biology and Evolution - Tập 33 Số 7 - Trang 1870-1874 - 2016
Tóm tắt

Chúng tôi giới thiệu phiên bản mới nhất của phần mềm Phân Tích Di Truyền Phân Tử (MEGA), bao gồm nhiều phương pháp và công cụ tinh vi cho phân loại gen và y học phân loại. Trong lần nâng cấp lớn này, MEGA đã được tối ưu hóa để sử dụng trên các hệ thống máy tính 64-bit nhằm phân tích các tập dữ liệu lớn hơn. Các nhà nghiên cứu giờ đây có thể khám phá và phân tích hàng chục nghìn chuỗi trong MEGA. Phiên bản mới cũng cung cấp một trình hướng dẫn nâng cao để xây dựng cây thời gian và bao gồm chức năng mới để tự động dự đoán các sự kiện sao chép gen trong các cây họ gen. MEGA 64-bit được cung cấp qua hai giao diện: đồ họa và dòng lệnh. Giao diện người dùng đồ họa (GUI) là một ứng dụng dành cho Microsoft Windows có thể sử dụng cả trên Mac OS X. Dòng lệnh MEGA có sẵn dưới dạng ứng dụng gốc cho Windows, Linux và Mac OS X. Chúng được thiết kế để sử dụng trong phân tích quy mô lớn và phân tích kịch bản. Cả hai phiên bản đều được cung cấp miễn phí từ www.megasoftware.net.

#MEGA #phân tích di truyền #phân loại gen #y học phân loại #dữ liệu lớn #phần mềm khoa học
edgeR: một gói Bioconductor cho phân tích biểu hiện khác biệt của dữ liệu biểu hiện gen số Dịch bởi AI
Bioinformatics - Tập 26 Số 1 - Trang 139-140 - 2010
Tóm tắt

Tóm tắt: Dự kiến các công nghệ biểu hiện gen số (DGE) mới nổi sẽ vượt qua công nghệ chip vi thể trong tương lai gần cho nhiều ứng dụng trong gen học chức năng. Một trong những nhiệm vụ phân tích dữ liệu cơ bản, đặc biệt cho các nghiên cứu biểu hiện gen, liên quan đến việc xác định liệu có bằng chứng cho thấy sự khác biệt ở số lượng của một bản sao hoặc exon giữa các điều kiện thí nghiệm hay không. edgeR là một gói phần mềm Bioconductor dùng để kiểm tra sự biểu hiện khác biệt của dữ liệu đếm lặp lại. Một mô hình Poisson phân tán quá mức được sử dụng để tính đến cả tính biến thiên sinh học và kỹ thuật. Các phương pháp Bayes thực nghiệm được sử dụng để điều chỉnh mức độ phân tán quá mức giữa các bản sao, cải thiện độ tin cậy của suy diễn. Phương pháp này có thể được sử dụng ngay cả với các mức độ lặp lại tối thiểu, miễn là ít nhất một kiểu hình hoặc điều kiện thí nghiệm được lặp lại. Phần mềm này còn có thể có các ứng dụng khác ngoài dữ liệu giải trình tự, chẳng hạn như dữ liệu số lượng peptide proteome.

Khả năng truy cập: Gói này có sẵn miễn phí theo giấy phép LGPL từ trang web Bioconductor (http://bioconductor.org).

Liên lạc: [email protected]

Suy diễn Cấu trúc Dân số Sử dụng Dữ liệu Genotype Đa Locus Dịch bởi AI
Genetics - Tập 155 Số 2 - Trang 945-959 - 2000
Tóm tắt

Chúng tôi mô tả một phương pháp phân nhóm dựa trên mô hình để sử dụng dữ liệu genotype đa locus nhằm suy diễn cấu trúc dân số và phân bổ cá thể vào các quần thể. Chúng tôi giả định một mô hình trong đó có K quần thể (K có thể không được biết), mỗi quần thể được đặc trưng bởi một tập hợp các tần số allele tại mỗi locus. Các cá thể trong mẫu được phân bổ (về mặt xác suất) vào các quần thể, hoặc chung vào hai hoặc nhiều quần thể nếu kiểu gen của chúng cho thấy rằng chúng là lai tạp. Mô hình của chúng tôi không giả định một quy trình đột biến cụ thể, và nó có thể được áp dụng cho hầu hết các dấu hiệu gen di truyền thường được sử dụng, với điều kiện là chúng không liên kết chặt chẽ với nhau. Các ứng dụng của phương pháp chúng tôi bao gồm việc chứng minh sự hiện diện của cấu trúc dân số, phân bổ cá thể vào các quần thể, nghiên cứu các vùng lai tạp, và xác định những cá thể di cư và lai tạp. Chúng tôi cho thấy phương pháp này có thể tạo ra các phân bổ cực kỳ chính xác với việc sử dụng số lượng locus khiêm tốn—ví dụ, bảy locus microsatellite trong một ví dụ sử dụng dữ liệu genotype từ một loài chim nguy cấp. Phần mềm được sử dụng cho bài báo này có sẵn tại http://www.stats.ox.ac.uk/~pritch/home.html.

MrBayes 3: Suy luận phát sinh loài Bayesian dưới các mô hình hỗn hợp Dịch bởi AI
Bioinformatics - Tập 19 Số 12 - Trang 1572-1574 - 2003
Tóm tắt

Tóm lược: MrBayes 3 thực hiện phân tích phát sinh loài Bayesian kết hợp thông tin từ các phần dữ liệu hoặc các phân tập khác nhau tiến hóa dưới các mô hình tiến hóa ngẫu nhiên khác nhau. Điều này cho phép người dùng phân tích các tập dữ liệu không đồng nhất bao gồm các loại dữ liệu khác nhau—ví dụ: hình thái, nucleotide và protein—và khám phá nhiều loại mô hình cấu trúc kết hợp tham số duy nhất và chung của phần. Chương trình sử dụng MPI để song song hóa kết hợp Metropolis trên các cụm máy Macintosh hoặc UNIX.

Khả dụng: http://morphbank.ebc.uu.se/mrbayes

Liên hệ: [email protected]

* Địa chỉ thông tin liên lạc.

#phân tích phát sinh loài Bayesian #mô hình hỗn hợp #dữ liệu không đồng nhất #song song hóa #phát sinh loài
Phương Trình Dạng Khép Kín Dự Báo Độ Dẫn Thủy Lực của Đất Không Bão Hòa Dịch bởi AI
Soil Science Society of America Journal - Tập 44 Số 5 - Trang 892-898 - 1980
Tóm tắt

Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(h), được giới thiệu trong bài báo này. Dạng cụ thể của phương trình này cho phép đưa ra các biểu thức phân tích dạng khép kín cho độ dẫn thủy lực tương đối, Kr, khi thay thế vào các mô hình độ dẫn dự đoán của N.T. Burdine hoặc Y. Mualem. Các biểu thức thu được cho Kr(h) chứa ba tham số độc lập có thể được xác định bằng cách điều chỉnh mô hình giữ nước trong đất đã đề xuất với dữ liệu thực nghiệm. Kết quả thu được từ các biểu thức khép kín dựa trên lý thuyết Mualem được so sánh với dữ liệu độ dẫn thủy lực quan sát cho năm loại đất có đặc tính thủy lực khác nhau. Độ dẫn thủy lực không bão hòa được dự đoán tốt trong bốn trên năm trường hợp. Kết quả cho thấy rằng việc mô tả hợp lý đường cong giữ nước trong đất ở mức chứa nước thấp là quan trọng để dự đoán chính xác độ dẫn thủy lực không bão hòa.

#Herardic #độ dẫn thủy lực #đường cong giữ nước đất #lý thuyết Mualem #mô hình dự đoán #độ dẫn thủy lực không bão hòa #dữ liệu thực nghiệm #điều chỉnh mô hình #đặc tính thủy lực giấy phép.
Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo Dịch bởi AI
Genome Research - Tập 20 Số 9 - Trang 1297-1303 - 2010

Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.

#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư
Đo Lường Các Tính Chất Đàn Hồi và Độ Bền Nội Tại của Graphene Dạng Đơn Lớp Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 321 Số 5887 - Trang 385-388 - 2008

Chúng tôi đã đo lường các đặc tính đàn hồi và độ bền phá vỡ nội tại của màng graphene dạng đơn lớp tự do bằng phương pháp nén nano trong kính hiển vi lực nguyên tử. Hành vi lực-chuyển vị được diễn giải theo khung phản ứng ứng suất-biến dạng đàn hồi phi tuyến và cho ra độ cứng đàn hồi bậc hai và bậc ba lần lượt là 340 newton trên mét (N m\n –1\n ) và –690 Nm\n –1\n . Độ bền phá vỡ là 42 N m\n –1\n và đại diện cho sức mạnh nội tại của một tấm không có khuyết tật. Những thông số này tương ứng với mô đun Young là\n E\n = 1.0 terapascals, độ cứng đàn hồi bậc ba\n D\n = –2.0 terapascals, và sức mạnh nội tại σ\n int\n = 130 gigapascals cho than chì khối. Những thí nghiệm này thiết lập graphene là vật liệu mạnh nhất từng được đo lường, và cho thấy rằng các vật liệu nano hoàn hảo về mặt nguyên tử có thể được thử nghiệm cơ học đối với các biến dạng vượt xa khỏi vùng tuyến tính.

#graphene #tính chất đàn hồi #độ bền phá vỡ #nén nano #kính hiển vi lực nguyên tử #ứng suất-biến dạng phi tuyến #mô đun Young #vật liệu nano #sức mạnh nội tại
VESTA 3 cho trực quan hóa ba chiều dữ liệu tinh thể, thể tích và hình thái Dịch bởi AI
Journal of Applied Crystallography - Tập 44 Số 6 - Trang 1272-1276 - 2011

VESTA là một hệ thống trực quan hóa ba chiều dành cho nghiên cứu tinh thể học và tính toán trạng thái điện tử. Nó đã được nâng cấp lên phiên bản mới nhất, VESTA 3, với các tính năng mới bao gồm vẽ hình thái bên ngoài của các tinh thể; chồng chéo nhiều mô hình cấu trúc, dữ liệu thể tích và mặt tinh thể; tính toán mật độ điện tử và hạt nhân từ các tham số cấu trúc; tính toán hàm Patterson từ các tham số cấu trúc hoặc dữ liệu thể tích; tích hợp mật độ điện tử và hạt nhân bằng phân tách Voronoi; trực quan hóa bề mặt đều với nhiều mức độ khác nhau; xác định mặt phẳng tối ưu cho các nguyên tử được chọn; một thuật toán tìm kiếm liên kết mở rộng để cho phép các tìm kiếm tinh vi hơn trong các phân tử phức tạp và cấu trúc giống như lồng; thao tác hoàn tác và làm lại trong giao diện người dùng đồ họa; và cải tiến đáng kể hiệu suất trong việc hiển thị bề mặt đều và tính toán các lát cắt.

Tổng số: 5,237   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10